07. 实现
实现:MC 预测(动作值)
你可以在下方找到(首次经历)MC 预测(动作值)的伪代码。(你可以选择实现首次经历或所有经历 MC 方法。在二十一点游戏中,首次经历和所有经历方法返回的结果一样。)

当每个状态动作对的经历次数接近无穷大时,首次经历和所有经历方法都保证会收敛于真值函数。(换句话说,只要智能体在每个状态动作对获取足够的经验,值函数估值将非常接近真值。)
我们不会使用 MC 预测估算确定性策略对应的动作值;这是因为很多状态动作对从未经历过(因为确定性策略在每个状态始终选择相同的动作)。因此为了收敛,我们仅估算在每个状态中每个动作被选中的概率非零的策略对应的动作值函数。
请在下个部分完成 Monte_Carlo.ipynb
的第 2 部分:MC 预测:动作值。请记得保存内容!
你可以查看 Monte_Carlo_Solution.ipynb
的相应部分,检查你的解决方案是否正确。